单步性能

小扎「梦之队」首批论文上线，LLM自举进化，单步性能狂飙22%

真Meta Superintelligence Labs新作来了！LLM学会「自我改进」：只做单步训练，推理却能多步迭代。在数学、工具调用、多轮任务到MLE-bench上，ExIt持续拔高模型表现，其中MLE-bench相对GRPO提升约22%。